2023年对我是难忘的一年。工作上,我开启了数据治理的新征程,踏上大模型的新赛道;学习上,拜ChatGPT为师,它是我的月光宝盒;写作上,尝试着做出改变,努力让文章更有生命力;健康上,继续与顽疾做斗争,绝不妥协。当然今年最幸福的事,还是送孩子进入了大学,这是我人生的大事。今年是企业级数据治理工作的第二年,如果说从0到1考验着决心,那么从1到N则考验着运营能力,具体体现在四个方面的转变:围绕**等公司重点业务,从治理范围、协同模式和治理手段三个方面开展数据一致性治理,实现公司重点业务数据的全局一致,解决由于数据不一致带来的经营管理风险等问题。当前**核心数据的不一致率已经下降至**%,我希望把数据治理工作从后端推向前端。将快捷、可控、严控三大数据开放流程固化至数据地图,新增数据开放服务时间承诺,构建实时数据服务目录,提升数据地图平台性能。建立百大运营指标体系,开展月度的运营分析会,持续推进数据开放效能提升,数据端到端平均开放时长缩短至**天,我要把数据治理当成产品那样去运营。以家宽业务对象为示范,拉通家宽在市场营销、业务受理、安装施工、业务使用等多个跨域环节的核心数据,构建了**个数据统一视图,覆盖**大业务场景,致力于提升跨域数据的使用效率和体验,我希望推动数据从能用到好用的转变。推出了涵盖“数治”、“数咨”等八大产品的凤凰数据治理产品体系,数据治理变现收入突破**万元,从0到1孕育数据要素变现的第二条曲线,相对于数据要素产品的变现,数据治理变现挑战更大。今年是大模型的元年,我认同李彦宏的“大模型值得把企业的应用全部重构一遍”的论断,在多个场景开启了领域大模型应用的探索,打造了智乎、ChatBI、智典、智能核稿等多个大模型产品。这段经历让我对大模型的技术和应用有了一定的理解,并在《业务为王,大模型应用的探索和思考!》一文中分享了我的思考。智乎是我们第一个探索的大模型应用,基于ChatGLM2打造了人力、财务问答系统。尽管由于幻象问题而未能取得成功,但它为我们团队打开了大模型的大门,我们通过此项目构建了CVL推理引擎,熟悉了大模型的部署和推理方法。ChatBI是一个基于ChatGLM2的指标查询系统,由于领域语料和微调能力的不足,我们同样遭遇了挫折,但这促使我们去研究微调的方法。智典是一个数据目录元数据信息自动生成的系统,我们选择了通义千问作为基础大模型,采用LORA进行微调,最后用这个大模型生成了数据目录的所有的元数据。智典是我们第一个比较成功的大模型应用,说明了场景选择的极端重要性。智能核稿主要用于文档错别字的自动纠正,是我们第一个对外正式推出的大模型应用。我们基于baichuan大模型首次系统性地进行了语料准备和微调,最后将领域错别字识别准确率提升到90%以上,智能核稿将大模型工作从研究态推向了生产态。第一是运营,数据治理开个头不易,但要持续提升更难。自己以前数据工作的失败,大都可以归因到运营上。因此今年花了比较大的力气把运营体系建立起来。虽然仍然会面临组织、机制及流程的挑战,但我还是要竭尽所能,这是做事的初心。第二是融合,我一直认为,数据团队过于后端,特别需要业务的牵引。今年,我将数管和管信团队融合在一起,共同推进大模型项目。这种跨域团队的合作在智能核稿等项目中取得了突破,证明了双方优势互补的重要性。今年自己学习的关键词是ChatGPT,ChatGPT从根本上改变了我的学习方式,不夸张的讲,它是每个普通人的月光宝盒:ChatGPT像一个无所不包的宝藏,能够提供我所需85%的信息和知识。它通过问答的形式,为我提供了一种全新的、自由的学习方式。与传统的书本学习、教师授课或专家咨询相比,ChatGPT使得定制化学习、启发式学习、生成式学习、实时在线学习、角色扮演学习等方式成为可能。在过去,这些都是难以想象的。要用好ChatGPT,关键是提出合适的问题,即Prompt的能力。网上有很多的Prompt的技巧,但关键还得靠自己的实践和创新,问出属于自己的问题。这一年我问了不下1000个问题,并从中总结出了属于自己的提问技巧和Prompt模式,这是我开启ChatGPT宝藏大门的钥匙。比如,每当我询问某个概念时,我总是要求同时提供相关案例,这样做可以极大地降低理解的难度。再比如,我经常将他人的观点输入ChatGPT,请求它提供更为中立的评价,这样可以帮助我形成更全面、独立的看法,避免人云亦云。此外,我还制定了许多专业的Prompt,以提高问答的效率。下面是一个例子,这是一个让ChatGPT扮演数据治理专家角色的Prompt片段,大家可以参考一下:通过ChatGPT,我重新审视并去理解众多数据相关的概念,包括数据治理、数字化、数据分析、数据仓库、大模型、主数据、可视化、数据质量管理、数据湖、元数据、数据管理、报表、BI、数据架构、大数据、数据团队,数据开发,数据运营、数据中台、数据产品、数据安全、标签、指标、用户画像、数字孪生、联邦学习、隐私计算、多方安全计算、湖仓一体、数据编织、数据网格、存算分离、流批一体、、数据资产、数据目录、数据血缘、数据开放、数据共享、数据标准、数据模型、数据服务、数据交换、数据建模、数据分类、数据采集、ETL、数据资源、ODS、DWD、DWS/ADS、数据存储、数据科学、机器学习、AI、数据集成等等。此外,我也顺便解决了一些技术负债。例如,我鼓起勇气重新学习了TOGAF框架,理解了其中的一些抽象概念,如架构制品、构建块、企业连续性、视图、视点、业务架构、应用架构、数据架构、技术架构、软件架构、系统架构等,并将这些学习心得融入到我的架构系列文章中。借助ChatGPT,我加快了学习的速度,例如,我在很短的时间内就对大模型CVL的推理框架、GPT的Transformer算法、以及各种高效的微调方法(如LORA、Prompt Tuning、P-Tuning、Adapter、Prefix等)有了初步的理解。这些知识有助于我能够进行独立的技术判断和决策,从而在工作中做出更加明智的选择。但即使有了ChatGPT,我还是维持着读纸质书的习惯,一方面很多知识在ChatGPT并不存在,另一方面学习的体验也不太一样,这些书涉及思考方法、系统架构、跨学科知识、沟通技巧、生活感悟、个人修养等各个方面。尽管现在我读书的数量相比以前有所减少,但我仍然享受在书页间寻找智慧的过程。今年我比较喜欢的书包括《佛畏系统-用系统思维全面提升你的决策力》、《说话的魅力》、《开窍》、《人生只有一件事》、《从内耗到心流》、《我不是教你诈》等等。我的家人,包括我的儿子和妻子,有时会指出我的一些缺点,比如自以为是、过于理性,以至于家庭交流有时像是在进行辩论。我回头想想觉得他们说得都对,但改变总是很难的,也许我读的还不够多,体会的还不够深,因此我还要继续读书修炼。我从不看直播卖货,最近董宇辉的事情却吸引了我的眼光,因为发现董宇辉的善良淳朴,文采飞扬竟然能吸引到这么多人的喜欢,看来读书还是正道,正如董宇辉说得,至少它能让你准确的表达自己,这何尝不是一种自我价值的实现呢?开了微信公众号的人,都会陷入为自己写还是为别人写的困境,“找热点、抛观点”固然能够吸引流量,但我更希望自己的文章有生命力,因此也在不断寻求改变。为了实现这一目标,我希望撰写更加系统性的文章,这样即使在未来多年后,这些文章仍然能够为人们提供有价值的参考。因此挑了架构系列的文章来做挑战。我从业务架构开始写起,到技术架构结束,共写了十几篇文章,其中有6篇已经发表,分别是:虽然这些文章离“深邃长远”还有很大的距离,但这是我的“诗和远方”。今年,我在写作风格上做了一些调整,减少了纯观点文章的比例。在撰写文章时,更多地依赖于实际经历和事实作为支撑。这些文章开始读的时候可能有些枯燥,但随着时间的推移,希望读者会逐渐感受到这些文章的价值,当然这只是我一厢情愿的做法。在这一年里,我发表了一系列文章,涵盖了数据治理、数据职场和数字技术等领域,下面是其中的一些代表:《人人都去研究大模型而不关注自身的业务和数据,这很危险!》大模型是AIGC,有创作的基因。我有很多的专业问题需要ChatGPT解答,因此顺势将问答的过程通过文章的形式表现出来,成就了一系列的ChatGPT文章,包括:《数据治理VS数据管理,ChatGPT用通俗的类比和案例终于讲清楚了本质区别!》《我用ChatGPT搞懂GPT技术原理,只问了30个问题,这是极致的学习体验!》《为了搞懂ERP,我连问 ChatGPT 30个问题,通透!》在这个过程中我自己能学到很多新知识,虽然这些文章的内容是ChatGPT生成的,但提出高质量的问题,让ChatGPT给出高质量的答案绝非易事,难度不亚于自己的创作。两年前,我被诊断出患有飞蚊症和干眼症,这两个病状对我的工作和生活造成了巨大的影响。医生说这是器官老化的自然现象,让我学会忍受和忽略。我不信这个邪,而这底气是书本给我的。激光消融术是当前治疗飞蚊症的主要方法,虽然之前医生说做这个手术有风险,但在深入了解相关信息后,我决定接受这个挑战。我联系了杭州在这一领域最为出色的医生,并经历了五次激光消融手术。最终我的努力没有白费,我的世界又明亮了起来。干眼跟我高度近视有关,那种异物感让人非常难受,我日复一日的每天用蒸汽熏眼,用20-20-20原则来强迫眼睛休息,同时补充各种鱼油和叶黄素,终于在今年的某一天,我惊喜地发现眼睛的不适感大幅缓解了。虽然飞蚊还有模糊的存在,眼睛偶偶也有些不舒服,但我已经能基本忽略它们了。我想,在顽疾面前,没有谁比自己更了解自己的痛苦,没有谁比自己更了解自己需要什么并为之愿意付出多大的代价,只有自己才是自己的救世主。今年一年,我不幸三次生病,两次新冠,一次流感。我遗憾的不是多次得了病,而是自己的不长记性。因为在2022年我就曾对着自己发誓:“傅一平同学,年纪到了就不要逞强了,不要为了那个该死的信念去跟身体做对抗。”去年我做年度总结时曾举了一个生病的例子来警醒自己,可惜就在上一周,我又重蹈覆辙了。在连续一周的车马劳顿后,我还是执意去爬山,因为这是我的一个既定计划。结果,回来就有了感冒的症状,几天后发烧到39度,直到现在还没完全好。已故的查理·芒格曾说:“如果知道我会死在哪里,那我将永远不去那个地方” 希望自己能知行合一,真正学会倾听身体的声音。事实上,我一直忙于工作,对孩子的学业关注甚少,几乎没有陪孩子写过一次作业;我这人脸皮薄,不愿求人,孩子小升初只能进入最普通的初中;我两耳不闻窗外事,对中考的加分政策完全不了解,导致孩子以0.001分之差与最好的高中失之交臂,百无一用是书生是我的写照。然而,孩子还是很争气的考入了理想的大学。那一刻,太太对我说:“孩子是来报恩的。” 我忙着点头,这是我的幸福时刻。有人说我身体力行的读书和学习对孩子有正面的影响,我想也许是有的吧,但自己这样做的主要目的还是为了工作,论心不论迹,我对孩子终有亏欠。感谢我的太太,就像我的母亲一样,全心全意为了自己的孩子付出了所有,这是我永远达不到的境界。信息部门如何编写2023年度工作总结与2024年度工作计划 2645
数据团队如何编写2023年度工作总结与2024年度工作计划 4806
雷军2023最新演讲:别畏难,先干起来再说!
数据管理实战:我的一周工作纪实
Teradata,不仅是数仓的黄埔军校,更是数据分析服务的天花板!
数据治理体系完整指南(全)
查看全部文章
点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶!